Tanımlayıcı İstatistikler

summary(data)
##      radius          texture        perimeter           area       
##  Min.   : 6.981   Min.   : 9.71   Min.   : 43.79   Min.   : 143.5  
##  1st Qu.:11.700   1st Qu.:16.17   1st Qu.: 75.17   1st Qu.: 420.3  
##  Median :13.370   Median :18.84   Median : 86.24   Median : 551.1  
##  Mean   :14.127   Mean   :19.29   Mean   : 91.97   Mean   : 654.9  
##  3rd Qu.:15.780   3rd Qu.:21.80   3rd Qu.:104.10   3rd Qu.: 782.7  
##  Max.   :28.110   Max.   :39.28   Max.   :188.50   Max.   :2501.0  
##    smoothness       compactness        concavity       concave.points   
##  Min.   :0.05263   Min.   :0.01938   Min.   :0.00000   Min.   :0.00000  
##  1st Qu.:0.08637   1st Qu.:0.06492   1st Qu.:0.02956   1st Qu.:0.02031  
##  Median :0.09587   Median :0.09263   Median :0.06154   Median :0.03350  
##  Mean   :0.09636   Mean   :0.10434   Mean   :0.08880   Mean   :0.04892  
##  3rd Qu.:0.10530   3rd Qu.:0.13040   3rd Qu.:0.13070   3rd Qu.:0.07400  
##  Max.   :0.16340   Max.   :0.34540   Max.   :0.42680   Max.   :0.20120  
##     symmetry      fractal.dimension
##  Min.   :0.1060   Min.   :0.04996  
##  1st Qu.:0.1619   1st Qu.:0.05770  
##  Median :0.1792   Median :0.06154  
##  Mean   :0.1812   Mean   :0.06280  
##  3rd Qu.:0.1957   3rd Qu.:0.06612  
##  Max.   :0.3040   Max.   :0.09744

Veri setinin tanımlayıcı istatistikleri incelendiğinde birçok değişkende mean ile median’ın birbirine yakın olduğu gözlemlenmiştir. Area değişkeni incelendiğinde aykırı değerlerin fazla olabileceği max değer ile 3. kartil değeri karşılaştırıldığında gözlemlenmiştir. Radius ve perimeter değişkeninde de Area gibi aykırı değerler gözlemlenebilir.

round(apply(data, 2, sd), 3)
##            radius           texture         perimeter              area 
##             3.524             4.301            24.299           351.914 
##        smoothness       compactness         concavity    concave.points 
##             0.014             0.053             0.080             0.039 
##          symmetry fractal.dimension 
##             0.027             0.007

Standart sapmalar incelendiğinde bazı değişkenlerin standart sapmalarının fazla olduğu çıkarımında bulunulabilir. Standart sapması en çok olan Area iken en az olan ise Fractal Dimension olarak saptanmıştır.

Korelasyon Analizi

corr <- cor(data, method = "pearson")
corrplot(corr, method="color" )

Veri setindeki korrelasyon matrisi incelendiğinde, değişkenler arasındaki korelasyonun oldukça fazla olduğu gözlemlenmiştir. Radius, Perimeter ve Area değişkenlerinin birbirleri ile korelasyonları incelendiğinde 0.98’den fazla değerler görünüyor. Compactness, Concavity ve Concave Points değişkenleri arasındaki korrelasyon de 0.83 ve üzeri. Fractal Dimension değişkeni negatif korrelasyonu olan tek değişken. Radius, Perimeter ve Area değişkenleri ile -0.31’den daha fazla değerlerle korrelasyona sahip. Texture değişkeninin diğer tüm değişkenlerle korrelasyonu sıfıra oldukça yakın. Bu da oldukça ilginç çünkü diğer tüm değişkenlerde negatif veya pozitif korrelasyon bulunmakta. Hatta bazı değişkenler arasındaki korrelasyonlar yukarıda belirtildiği gibi oldukça fazla.

Kutu Grafikleri

par(mfrow=c(2,5))
boxplot(data$radius, main = "radius", col = "dodgerblue2")
boxplot(data$texture, main = "texture", col = "dodgerblue2")
boxplot(data$perimeter, main = "perimeter", col = "dodgerblue2")
boxplot(data$area, main = "area", col = "dodgerblue2")
boxplot(data$smoothness, main = "smoothness", col = "dodgerblue2")
boxplot(data$compactness, main = "compactness", col = "dodgerblue2")
boxplot(data$concavity, main = "concavity", col = "dodgerblue2")
boxplot(data$concave.points, main = "concave points", col = "dodgerblue2")
boxplot(data$symmetry , main = "symmetriy", col = "dodgerblue2")
boxplot(data$fractal.dimension , main = "fractal dimension", col = "dodgerblue2")

Area değişkenin sağa çarpık, Radius değişkenin ise sola çarpık görülmektedir. Concave Points ve Concavity’nin normal dağılmadığı gözlemlenmektedir. Aykırı değerlerin fazlalığı bariz bir şekilde görülmektedir. Daha önce de vurgulanan değişkenlerdeki varyansın oldukça fazla olduğu görünmektedir.

Temel Bileşen Analizi

## Importance of components:
##                           PC1    PC2     PC3    PC4     PC5     PC6     PC7
## Standard deviation     2.3406 1.5870 0.93841 0.7064 0.61036 0.35234 0.28299
## Proportion of Variance 0.5479 0.2519 0.08806 0.0499 0.03725 0.01241 0.00801
## Cumulative Proportion  0.5479 0.7997 0.88779 0.9377 0.97495 0.98736 0.99537
##                            PC8     PC9    PC10
## Standard deviation     0.18679 0.10552 0.01680
## Proportion of Variance 0.00349 0.00111 0.00003
## Cumulative Proportion  0.99886 0.99997 1.00000

Temel bileşen analizinin özet değerleri incelendiğinde en uygun bileşen sayısının iki olabileceği düşünülebilir. 2 bileşendeki 0.7997 açıklayıcılığın, 3 bileşende 0.887’e çıkması göz ardı edilebilecek bir yükseliş. Standart deviation değeri incelendiğinde 0.88 yine, en uygun değer olarak görülmektedir. Ancak kesin bir karara varmak için Eigen değerleri ile Screeplot’a da bakılmak istenmektedir.

##  [1] 5.4785879917 2.5187135854 0.8806151792 0.4990094357 0.3725391897
##  [6] 0.1241417485 0.0800853104 0.0348897928 0.0111354606 0.0002823059

Eigen değerleri incelendiğinde de 1’e en yakın değer olan 3 bileşenin 0.8806 ile en uygun seçim olduğu söylenebilir; ancak iki bileşen de yine tercih edilebilecek bir değer olarak göze çarpmakta. Bu sebeple bu aşamada iki bileşen daha iyi gibi görülmekle birlikte kesin bir kanıya varılamamıştır.

Screeplot incelendiğinde en uygun bileşen sayısı üç olarak görülmekte; ancak özet istatistiklerinde dikkat çeken Cumulative Proportion değerleri incelendiğinde iki bileşenin de düşünülebilir olması gözden kaçırılmak istenilmemektedir. Bu sebeple son bir kanıya varmak amacıyla bileşen sayısına otomatik olarak karar veren Psych paketindeki fa.paralel fonksiyonundan yararlanılmak istenilmiştir.

x <- fa.parallel(data, fm="pa", fa="both", n.iter=1)

## Parallel analysis suggests that the number of factors =  2  and the number of components =  2

fa.paralel fonksiyonunun yazı çıktısı incelendiğinde en uygun bileşen sayısının iki olduğunun önerisi görülmektedir. Cumulative Proportion değerleri ve üçüncü bileşenin Proportion of Varience değerinin ( 0.08 ) oldukça az olması gibi sebepler düşünüldüğünde en uygun bileşen sayısı olarak 2 seçilmiştir.

##                           PC1          PC2         PC3
## radius            -0.36393793  0.313929073 -0.12442759
## texture           -0.15445113  0.147180909  0.95105659
## perimeter         -0.37604434  0.284657885 -0.11408360
## area              -0.36408585  0.304841714 -0.12337786
## smoothness        -0.23248053 -0.401962324 -0.16653247
## compactness       -0.36444206 -0.266013147  0.05827786
## concavity         -0.39574849 -0.104285968  0.04114649
## concave.points    -0.41803840 -0.007183605 -0.06855383
## symmetry          -0.21523797 -0.368300910  0.03672364
## fractal.dimension -0.07183744 -0.571767700  0.11358395

Bileşenlerin hangi değişkenleri ifade ettiklerini içeren çıktı incelendiğinde; üçüncü bileşenin yalnızca Texture değişkenini ifade ettiği fark edilmiştir. Texture değişkeninin aykırılığını korrelasyon analizinde de görmek mümkündü. Hiçibr değişken ile anlamlı bir korelasyonu olmayan bu değişkenin bir başka bileşen ile ifade edilmesi anlaşılabilir.

Tek bir değişken için bir bileşen eklemek, 0.9 açıklayıcılık maaliyeti ile düşünüldüğünde çok da mantıklı görülmemiştir. Bu da iki bileşen seçimi kararını destekleyen bir başka sav olarak dikkat çekmektedir. Bu karara varmak için Texture değişkeninin diğer değişkenlerle korelasyonunun azlığı da hesaba katılmıştır.

Bu görselden de görülebileceği üzere bileşenlerin ifade ettikleri değişkenler şu şekildedir: PC1 : Radius, Perimeter, Area, Concave Points, Concavity, Texture PC2 : Fractal Dimension, Smoothness, Compactness, Symmetry

Gözlemlerin PC 1 ve PC 2 grafiğindeki katkıları incelendiğinde sağ üst ve sağ altta bir kısımda kümelenme görülmekte. Bu gözlemlerin benzer özellikler ifade ettiği söylenebilir. Örneğin en sol altta bulunan 79. gözlem değerleri incelendiğinde Radius ve Texture dışındaki bütün değişkenler için maksimuma yakın değerlere sahip olduğu görülebiliyor. Tam zıt ekseninde yer alan 569. gözlem değerleri incelendiğinde, Smoothness ve Concavity’de minimum değerleri sahipken, Texture değişkeninde ise 3. kartilin üzerinde bir değere sahip.

Değişkenlerin PCA grafiği incelendiğinde, pozitif korrelasyona sahip gözlemlerin aynı bölgeleri işaret ettiği söylenebilir. Örneğin Area, aynı bileşende olduğu Perimeter ile pozitif korelasyona sahipken; farklı bileşende olduğu Fractal Dimension ile negatif korrelasyona sahip. Değişkenlerin katkıları bu grafik sayesinde daha iyi görülebilir.

cor(data.pca$x[,1],data.pca$x[,2])
## [1] 6.799531e-16

PCA sonrası değişkenler arasında bir korelasyon kalmadığı saptanılmıştır.

Kümeleme Analizleri

Veri setindeki korrelasyon oldukça fazla olduğu için analizde PCA yapılmış veri seti kullanılacaktır.

Kümelenme Eğiliminin Ölçülmesi

hopkins.data <- hopkins(pcadata, n = nrow(pcadata)-1)
hopkins.data
## $H
## [1] 0.1976494

Hopkins istatistiği, belirli bir veri setinin tekdüze dağılımdan üretilme olasılığını ölçerek veri kümesinin kümelenme eğilimini değerlendirmek için kullanılmaktadır.Bu veri seti için Hopkins değeri 0.20 olarak çıkmıştır. Bu da veri setinin kümelenebilir olduğunu göstermektedir.

K - Ortalamalar Kümeleme Algoritması

Optimal Küme Sayısının Belirlenmesi

Dirsek Yöntemi grafiği incelendiğinde küme sayısı için kesin bir karar vermenin mümkün olmadığı söylenebilmekle birlikte, iki ve beş küme seçilebilir.

Silhouette grafiği incelendiğinde en yüksek silhouette değerinin ikide olduğu gözlemlenebilir. Bununla birlikte 3 küme de arada çok fark olmaması sebebi ile denenebilir.

Nboot değerinin 500 olarak ayarlandığı Gap Statistics değeri de en uygun küme sayısının iki olduğunu işaret ediyor.

## Among all indices: 
## ===================
## * 2 proposed  0 as the best number of clusters
## * 9 proposed  2 as the best number of clusters
## * 6 proposed  3 as the best number of clusters
## * 1 proposed  4 as the best number of clusters
## * 1 proposed  5 as the best number of clusters
## * 5 proposed  7 as the best number of clusters
## * 2 proposed  8 as the best number of clusters
## 
## Conclusion
## =========================
## * According to the majority rule, the best number of clusters is  2 .

NbClust paketi çıktısı incelendiğinde 9 yöntemin 2 kümeyi önerdiği, 6 yöntemin ise 3 kümeyi önerdiği saptanılmıştır. Çoğunluk kuralı dikkate alındığında iki küme sayısının optimal küme olduğu kararına varılmıştır. Ancak üç, beş ve yedi küme için de denemeler yapılmıştır. Rapora eklenenler ise iki ve üç küme sayısı ile yapılan analizlerdir.

5 küme için açıklayıcılık iki ve üç kümeye göre daha çok (76.3) çıkmasına rağmen Ortalama Silhouette değeri daha düşük (0.36) çıkmıştır. Ayrışma iki boyutta da çakışma olmadan gerçeklemiş ve küme eleman sayıları birbirine yakın çıkmıştır. Ancak label ve küme geçerliliği istatistiklerinin verdiği sonuçlar düşünüldüğünde rapora koyulmama kararı alınmıştır.

7 küme için açıklayıcılık iki ve üç kümeye göre daha çok (82.1) çıkmasına rağmen Ortalama Silhouette değeri daha düşük (0.35) çıkmıştır. Ayrışma her iki boyutta da çakışma az olarak gerçekleşmiş ve küme eleman sayıları birbirine daha da yaklaşmıştır. Küme içi varyansları arasındaki fark azalmakla birlikte; label ve küme geçerliliği istatistiklerinin verdiği sonuçlar düşünüldüğünde rapora koyulmama kararı alınmıştır.

İki Küme İçin K - Ortalamalar

## K-means clustering with 2 clusters of sizes 398, 171
## 
## Cluster means:
##         PC1         PC2
## 1  1.289695 -0.03214799
## 2 -3.001746  0.07482399
## 
## Clustering vector:
##   [1] 2 2 2 2 2 2 2 2 2 2 1 2 2 1 2 2 1 2 2 1 1 1 2 2 2 2 2 2 2 2 2 1 2 2 2 2 1
##  [38] 1 1 1 1 1 2 1 1 2 1 1 1 1 1 1 1 2 1 1 2 2 1 1 1 1 2 1 1 2 1 1 1 1 2 1 2 1
##  [75] 1 1 1 2 2 1 1 1 2 2 1 2 1 2 1 2 1 1 1 1 2 2 1 1 1 1 1 1 1 1 1 2 1 1 2 1 1
## [112] 1 2 1 1 1 1 2 2 1 1 2 2 1 1 1 1 2 2 2 1 2 2 1 2 1 1 1 2 1 1 1 1 1 1 1 2 1
## [149] 1 1 1 1 2 1 1 1 2 1 1 1 1 2 2 1 2 1 1 1 2 1 1 1 2 1 1 1 1 2 1 1 2 2 1 1 1
## [186] 1 1 1 1 1 2 1 1 1 2 1 2 2 2 1 1 2 2 2 1 1 1 1 1 1 2 1 2 2 2 1 1 1 2 2 1 1
## [223] 1 2 1 1 1 1 1 2 2 1 1 2 1 1 2 2 1 2 1 1 1 1 2 1 1 1 1 1 2 1 2 2 2 1 2 2 2
## [260] 2 2 1 2 1 2 2 1 1 1 1 1 1 2 1 1 1 1 1 1 1 2 1 2 2 1 1 1 1 1 1 1 1 1 1 1 1
## [297] 1 1 1 1 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 2 1 2 1 1 1 1 2 2 2 1 1
## [334] 1 1 2 1 2 1 2 1 1 1 2 1 1 1 1 1 1 1 2 2 1 1 1 1 1 1 1 1 1 1 1 1 2 2 1 2 2
## [371] 2 1 2 2 1 2 1 1 1 2 1 1 1 1 1 1 1 1 1 2 1 1 2 2 1 1 1 1 1 1 2 1 1 1 1 1 1
## [408] 1 2 1 1 1 1 1 1 1 1 2 1 1 1 2 1 1 1 1 1 1 1 1 2 1 2 2 1 1 1 1 1 1 1 2 1 1
## [445] 2 1 2 1 1 2 1 2 1 1 1 1 1 1 1 1 2 2 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 2 1
## [482] 1 1 1 1 1 1 2 1 1 1 1 2 1 1 1 1 1 2 2 1 2 1 2 2 1 1 1 1 2 1 1 2 1 1 1 2 2
## [519] 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## [556] 1 1 1 1 1 1 1 2 2 2 2 1 2 1
## 
## Within cluster sum of squares by cluster:
## [1] 1121.768 1216.540
##  (between_SS / total_SS =  48.5 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

Birinci kümede 398 eleman varken; ikinci kümedeki eleman sayısı 171. Sırasıyla 1. ve 2. kümeler için küme içi kareler toplamı ise 1121.768 ve 1216.540 olarak saptanmıştır. Açıklayıcılık ise %48.5 olarak saptanılmıştır.

Küme grafiği incelendiğinde örtüşmenin olmadığı söylenebilir.Ayrışma yalnızca PC1’de gerçekleşmiş. Özellikle mavi renkle ifade edilen ikinci kümenin varyansının oldukça fazla olduğu görülmektedir.

K - Ortalamar için küme geçerlilikleri bu aşamalarda yapılmış; ancak rapora eklenilmemiştir. İlerleyen aşamalarda yapılacak olan Küme Geçerliliği bölümünde K - Ortalamalar için çıkan Küme Geçerliliği İstatistikleri verilecek ve diğer algoritmalar ile karşılaştırılacaktır.

Üç Küme İçin K - Ortalamalar

## K-means clustering with 3 clusters of sizes 117, 117, 335
## 
## Cluster means:
##         PC1        PC2
## 1 -3.356223  1.1362390
## 2 -1.045541 -1.8948581
## 3  1.537332  0.2649505
## 
## Clustering vector:
##   [1] 2 1 1 2 1 2 1 2 2 2 3 2 1 3 2 2 3 2 1 3 2 3 2 1 1 2 2 1 2 1 1 2 1 1 2 1 2
##  [38] 3 3 2 3 2 1 2 3 1 3 2 3 3 3 3 3 1 3 3 1 2 3 3 2 3 2 3 2 2 3 3 2 3 1 2 1 3
##  [75] 3 3 2 1 1 3 3 2 1 1 3 1 3 1 3 2 3 3 3 3 2 1 3 3 3 2 3 3 3 3 3 2 3 3 1 3 3
## [112] 2 2 2 3 3 3 2 2 1 3 1 1 2 3 3 3 1 2 1 3 2 2 3 1 3 3 3 2 3 3 2 3 3 3 2 2 3
## [149] 3 3 2 2 2 3 3 3 1 3 3 3 2 1 1 3 1 3 3 3 1 3 3 3 2 3 3 3 2 1 3 3 1 1 3 3 3
## [186] 3 1 3 3 3 2 3 3 2 2 3 2 1 1 2 3 1 1 2 3 3 3 3 2 3 1 3 1 1 2 2 3 3 1 1 3 2
## [223] 3 2 3 3 3 3 3 2 1 3 3 1 3 3 1 1 3 1 3 3 2 3 1 3 3 3 3 3 1 3 1 1 1 2 1 2 2
## [260] 1 1 3 1 3 1 1 3 3 3 3 3 3 1 3 3 2 3 1 3 3 1 3 1 2 3 3 3 3 2 3 2 3 3 3 3 3
## [297] 3 3 3 3 1 3 1 3 3 3 3 3 3 3 3 3 3 3 3 3 3 1 2 3 2 1 3 1 3 3 3 3 2 2 2 3 3
## [334] 3 3 1 3 1 3 1 3 3 3 1 3 3 3 3 3 2 3 2 1 2 3 3 2 3 3 3 3 3 3 3 3 1 1 3 1 1
## [371] 1 3 1 1 3 2 2 3 3 2 2 3 3 3 3 3 3 3 3 1 3 3 2 1 3 3 3 3 3 3 1 3 3 3 3 3 3
## [408] 3 1 3 3 3 3 3 3 3 3 2 3 3 3 2 3 3 2 3 3 3 3 3 2 2 1 1 3 2 3 3 3 3 3 1 3 3
## [445] 1 3 1 3 3 1 3 1 3 3 3 3 3 3 3 3 1 1 3 3 3 3 3 3 1 2 3 3 3 3 3 3 3 3 3 2 3
## [482] 3 2 3 2 2 3 1 3 3 3 3 1 3 3 3 2 3 1 1 2 2 2 1 2 2 2 2 3 2 3 3 2 3 3 3 1 1
## [519] 2 2 2 1 3 3 3 3 3 3 2 3 3 3 3 1 3 1 2 2 3 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
## [556] 3 3 3 3 3 3 3 2 1 1 1 3 1 3
## 
## Within cluster sum of squares by cluster:
## [1] 620.5682 455.6488 634.0446
##  (between_SS / total_SS =  62.3 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

1, 2 ve 3. kümeler için küme eleman sayıları sırasıyla 117, 117 ve 335 olarak saptanmıştır. Sırasıyla 1, 2 ve 3. kümeler için küme içi kareler toplamı ise 620.5682, 455.6488 ve 634.0446 olarak saptanmıştır. Açıklayıcılık ise %62.3 olarak saptanılmıştır.

Küme grafiği incelendiğinde çakışma olmadığı gözlemlenebilir. Ayrışma hem PC1, hem de PC2’de gerçekleşmiştir. Özellikle mavi renkle ifade edilen üçüncü kümenin varyansının diğer kümelere kıyasla daha az olduğu söylenebilir. Üçüncü kümenin eleman sayısı en fazla olan küme olduğu düşünüldüğünde, bu oldukça dikkat çekmektedir.

K - Medoids Kümeleme Algoritması

Optimal Küme Sayısına Karar Verilmesi

Dirsek Yöntemi incelendiğinde bariz bir seçim yapmak kolay olmayacaktır. Dirsek oluşumuna en benzer kıvrımın ikinci kümede olduğu söylenilebilir.

Silhouette grafiği hiç şaşırtıcı olmayan bir şekilde iki kümeyi işaret ediyor. Ona en yakın değer olan üç değeri ile de arasındaki fark azınsanmayacak bir seviyede.

Gap grafiği incelendiğinde de optimal küme sayısı olarak iki kümenin işaret edildiği söylenilebilir.

Grafiği çizdirilen üç yöntem dikkate alındığında optimal küme sayısının iki olduğu kararına varılmıştır. Yapılan analizlerde 2, 3, 4 ve 5 küme için denemeler yapılmıştır. Ancak rapora yalnızca 2 ve 3 küme sayısı için yapılan analizler dahil edilmiştir.

4 küme için yapılan analizde ayrışmanın her iki boyutta da gerçekleşdiği fark edilmiştir. 2 kümenin küme içi varyansı az iken, diğer iki kümenin küme içi varyansının orantısız şekilde fazla olduğu saptanılmıştır. Silhouette değerinin diğer bir ve iki kümeye kıyasla daha az (0.34) olması ve label düşünüldüğünde rapora koyulmama kararı alınmıştır.

5 küme için yapılan analizde ayrışmanın her iki boyutta da gerçekleştiği fark edilmiştir. Yine iki kümenin küme içi varyansı diğer 3 kümeye kıyasla daha çok çıkmıştır. Silhouette değerinin gittikçe düşmesi (0.33) ve label düşünüldüğünde bu küme sayısı ile yapılan analizin de rapora konulmamasına karar verilmiştir.

2 Küme için K - Medoids Kümeleme

## Medoids:
##       ID       PC1        PC2
## [1,] 499 -2.357211 0.30131315
## [2,] 269  1.358672 0.03762238
## Clustering vector:
##   [1] 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 2 1 1 2 2 2 1 1 1 1 1 1 1 1 1 2 1 1 1 1 2
##  [38] 2 2 2 2 2 1 2 2 1 2 1 2 2 2 2 2 1 2 2 1 1 2 2 2 2 1 2 2 1 2 2 2 2 1 2 1 2
##  [75] 2 1 2 1 1 2 2 1 1 1 2 1 2 1 2 1 2 1 2 2 1 1 2 2 2 2 2 2 2 2 2 1 2 2 1 2 2
## [112] 2 1 2 2 2 2 1 1 1 2 1 1 2 2 2 2 1 1 1 2 1 1 2 1 2 2 2 1 2 2 1 2 2 2 2 1 2
## [149] 2 2 2 2 1 2 2 2 1 2 2 2 2 1 1 2 1 2 2 1 1 2 2 2 1 2 2 2 2 1 2 2 1 1 2 2 2
## [186] 2 1 2 2 2 1 2 2 2 1 2 1 1 1 1 2 1 1 1 2 2 2 1 2 2 1 2 1 1 1 1 2 2 1 1 2 2
## [223] 2 1 2 2 2 2 2 1 1 2 2 1 2 2 1 1 2 1 2 2 2 2 1 2 2 2 2 2 1 2 1 1 1 2 1 1 1
## [260] 1 1 2 1 2 1 1 2 2 2 2 2 2 1 2 1 2 2 1 2 2 1 2 1 1 2 2 2 2 2 2 1 2 2 2 2 2
## [297] 2 2 2 2 1 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 1 2 1 2 2 2 2 1 1 1 2 2
## [334] 2 2 1 2 1 2 1 2 2 2 1 2 2 2 2 2 2 2 1 1 1 2 2 2 2 2 2 2 2 2 2 2 1 1 2 1 1
## [371] 1 2 1 1 2 1 2 2 2 1 2 2 2 2 2 2 2 2 2 1 2 2 1 1 2 2 2 2 2 2 1 2 2 2 2 2 2
## [408] 2 1 2 2 2 2 2 2 2 2 1 2 2 2 1 2 2 2 2 2 2 2 2 1 2 1 1 2 2 2 2 2 2 2 1 2 2
## [445] 1 2 1 2 2 1 2 1 2 2 2 2 2 2 2 2 1 1 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 1 2
## [482] 2 2 2 1 2 2 1 2 2 2 2 1 2 2 2 2 2 1 1 2 1 2 1 1 2 2 2 2 1 2 2 1 2 2 2 1 1
## [519] 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 1 2 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
## [556] 2 2 2 2 2 2 2 1 1 1 1 1 1 2
## Objective function:
##    build     swap 
## 1.806580 1.700399 
## 
## Available components:
##  [1] "medoids"    "id.med"     "clustering" "objective"  "isolation" 
##  [6] "clusinfo"   "silinfo"    "diss"       "call"       "data"

Küme elemanlarına bakıldığında birinci kümede 499 eleman varken; ikinci küme eleman sayısı 269 olarak görülmektedir. PC1 değişkeninin centroidi ( -2.3572, 0.3013 ) iken, PC2 değişkeninin centroidi ( 1.3586, 0.0376 ) olarak saptanmıştır.

Grafik incelendiğinde çakışma gözlemlenmemiştir. Tıpkı iki kümeli k-ortalamalarda olduğu gibi; ayrışmanın yalnızca PC1 boyutunda gerçekleştiği görülmektedir. Kırmızı renk ile gösterilen birinci kümedeki varyansın daha fazla olduğu fark edilmiştir.

Üç Küme için K- Medoids Kümeleme

## Medoids:
##       ID        PC1        PC2
## [1,] 169 -2.8020980  0.6466461
## [2,] 107  0.7507288 -1.3117501
## [3,] 296  1.6697824  0.6918928
## Clustering vector:
##   [1] 1 1 1 2 1 2 1 2 2 2 3 1 1 3 1 1 3 1 1 3 2 2 1 1 1 1 1 1 1 1 1 2 1 1 1 1 2
##  [38] 3 3 2 3 2 1 2 2 1 3 2 2 3 3 3 3 1 3 3 1 2 3 2 2 2 1 2 2 1 2 3 2 3 1 2 1 2
##  [75] 3 3 2 1 1 3 2 2 1 1 2 1 2 1 2 2 3 1 3 3 1 1 2 3 3 2 3 2 3 2 2 2 2 3 1 3 2
## [112] 2 1 2 2 3 2 1 1 1 3 1 1 2 3 3 3 1 1 1 2 1 1 3 1 3 3 3 1 2 3 1 2 3 3 2 2 3
## [149] 2 3 2 2 2 3 2 3 1 3 3 3 2 1 1 2 1 3 3 1 1 3 2 3 1 3 3 3 2 1 3 3 1 1 3 3 3
## [186] 3 1 3 3 3 1 3 3 2 1 3 2 1 1 2 2 1 1 2 2 3 2 3 2 3 1 3 1 1 2 2 2 3 1 1 3 2
## [223] 2 1 3 3 2 3 3 2 1 3 3 1 3 3 1 1 3 1 3 3 2 3 1 2 3 2 2 2 1 3 1 1 1 2 1 1 1
## [260] 1 1 3 1 3 1 1 2 3 3 2 3 2 1 2 3 2 3 1 3 2 1 3 1 1 3 3 3 3 2 3 2 3 2 3 3 3
## [297] 3 3 3 2 1 3 1 2 3 3 3 3 3 3 3 3 3 3 2 3 3 1 2 3 2 1 2 1 3 3 3 3 1 1 1 2 2
## [334] 3 3 1 2 1 2 1 2 2 2 1 2 2 3 3 3 2 3 1 1 1 3 3 2 3 2 2 3 3 3 3 3 1 1 3 1 1
## [371] 1 3 1 1 3 2 2 3 3 2 2 3 3 2 3 3 3 3 2 1 2 2 1 1 2 3 2 3 3 3 1 3 3 3 3 3 3
## [408] 3 1 3 3 2 3 3 3 2 2 1 3 3 3 2 2 2 2 3 2 3 3 3 1 2 1 1 3 2 3 3 3 3 2 1 3 3
## [445] 1 2 1 3 3 1 3 1 3 2 3 3 3 3 3 3 1 1 3 3 3 3 3 3 1 2 2 3 3 3 2 3 3 3 2 1 3
## [482] 3 2 3 2 2 3 1 2 3 3 3 1 3 3 3 2 3 1 1 2 2 2 1 2 2 2 2 3 1 3 3 2 3 3 2 1 1
## [519] 2 2 2 1 3 2 3 2 2 3 2 2 2 2 3 1 2 1 2 2 2 2 2 2 3 3 3 3 3 2 3 3 3 2 3 3 3
## [556] 3 2 3 3 3 3 3 1 1 1 1 1 1 3
## Objective function:
##    build     swap 
## 1.537794 1.437532 
## 
## Available components:
##  [1] "medoids"    "id.med"     "clustering" "objective"  "isolation" 
##  [6] "clusinfo"   "silinfo"    "diss"       "call"       "data"

Küme elemanlarına bakıldığında birinci kümede 159, ikinci küme eleman sayısı 169, üçünkü kümede ise 241 eleman bulunmaktadır. Birinci kümenin centroidi (-2.8020980, 0.6466461), ikinci kümenin centroidi (0.7507288, -1.3117501) ve üçüncü kümenin centroidi (1.6697824, 0.6918928) olarak saptanılmıştır.

Küme grafiği incelendiğinde çakışma gözlemlenmiştir. Ayrışmanın hem PC1, hem de PC2 boyutunda gerçekleştiği görülmektedir. Kırmızı renk ile gösterilen birinci kümedeki varyans fazla iken; mavi renkle ifade edilen üçüncü kümedeki varyans azdır.

Aşamalı Kümeleme Algoritması

Ward’s Minimum Variance Method

Aşamalı Kümelemeye Wards linkage yöntemi ile başlanılacaktır. Hem euclidean, hem de manhattan uzaklık metriğine göre aşamalı kümeleme uygulanacak ve dendogramlar görselleştirilecektir. Ardından kümelemelerin kojenetik uzaklıkları ölçülecektir. Orijinal uzaklık ile kojenetik uzaklık arasındaki korelasyon incelenip hangi uzaklık metriği ile ilerlenileceğine karar verilecektir.

dist_euc <- dist(pcadata, method="euclidean")
dist_man <- dist(pcadata, method="manhattan")

Euclidean Uzaklık Metriği

Manhattan Uzaklık Metriği

İki dendogram incelendiğinde çok büyük bir farklılık görülmemektedir. Ancak yükseklik değerleri incelendiğinde Euclidean uzaklık metriği ile yapılan aşamalı kümelemenin daha düşük yükseklik değerleri ile ayrıldığını fark etmek mümkündür. Daha sağlıklı yorumlama yapabilmek amacıyla kojenetik distance değerlerini bulmak mantıklı olacaktır.

coph_e <- cophenetic(hc_e)
cor(dist_euc,coph_e)
## [1] 0.6711685

Euclidean uzaklık metriği ile yapılan aşamalı kümelemenin orijinal uzaklık ile kojenetik uzaklık arasındaki korelasyon değeri 0.67 çıkmıştır. 0.75 ve üzeri korelasyon değerlerinin daha geçerli bir kümeleme olduğu sonucuna varıldığı düşünüldüğünde, bu değerin iyi olmadığı sonucuna varılabilir. Ancak daha iyi bir yorum yapmak için Manhattan uzaklık ölçütü ile yapılan aşamalı kümelemenin de kojenetik uzaklık değerine ulaşmak gerekmektedir.

coph_m <- cophenetic(hc_m)
cor(dist_man,coph_m)
## [1] 0.6018289

Manhattan uzaklık metriği ile yapılan aşamalı kümelemenin orijinal uzaklık ile kojenetik uzaklık arasındaki korelasyon değeri 0.60 çıkmıştır. 0.75 ve üzeri korelasyon değerlerinin daha geçerli bir kümeleme olduğu sonucuna varıldığı düşünüldüğünde, bu değerin iyi olmadığı sonucuna varılabilir. Euclidean distance ile yapılan kojenetik uzaklık korelasyonunun daha iyi çıkması sebebiyle, aşamalı kümeleme yönteminin Ward linkage ile yapılan kümelemesinde Euclidean Distance metriği ile ilerlenme kararı verilmiştir.

Optimal Küme Sayısının Belirlenmesi

## Among all indices: 
## ===================
## * 2 proposed  0 as the best number of clusters
## * 1 proposed  1 as the best number of clusters
## * 7 proposed  2 as the best number of clusters
## * 5 proposed  3 as the best number of clusters
## * 4 proposed  4 as the best number of clusters
## * 5 proposed  6 as the best number of clusters
## * 1 proposed  7 as the best number of clusters
## * 1 proposed  8 as the best number of clusters
## 
## Conclusion
## =========================
## * According to the majority rule, the best number of clusters is  2 .

NbClust paketinden yararlanılarak çizdirilen grafikte en çok önerilen küme sayısı iki olarak saptanmıştır. Dendogramlar incelendiğinde benzer bir çıkarımda bulunmak mümkündür. 2,3 ve 6 küme için aşamalı kümeleme yapılmış; ancak rapora yalnızca 2 ve 3 kümelemenin sonucu eklenmiştir.

6 küme için yapılan analizde ayrışmanın her iki boyutta da gerçekleştiği ama bazı kümelerde çakışmaların olduğu saptanmştır. Küme eleman sayıları birbirine yakın olmasına rağmen, iki kümenin küme içi varyansının diğer dört kümeye kıyasla daha fazla olduğu fark edilmiştir. Silhouette değerinin daha düşük (0.32) olması ve label düşünüldüğünde rapora koyulmama kararı alınmıştır.

2 Küme için Ward

## grupward2
##   1   2 
## 180 389

İki küme için yapılan kümeleme sonucunda birinci kümede 180, ikinci kümede 389 eleman olduğu saptanılmıştır.

Küme Grafiği incelendiğinde, ayrışmanın yine yalnızca PC1 boyutunda gerçekleştiği gözlemlenmiştir. Mavi renkle gösterilen ikinci kümenin varyansının birinci kümeye göre daha az olduğu hem dendogramda, hem de kümeleme grafiğinde gözlemlenmiştir. Kümeler arasındaki çakışma dikkat çekmektedir.

3 Küme için Ward

## grupward3
##   1   2   3 
## 104  76 389

Üç küme için yapılan kümeleme sonucunda birinci kümede 104, ikinci kümede 76 ve üçüncü kümede 389 eleman olduğu saptanılmıştır.

Küme grafiği incelendiğinde, ayrışmanın hem PC1, hem de PC2 boyutunda olduğu saptanılmıştır. Kırmızı renkle gösterilen birinci kümedeki değişim fazla iken; yeşil renkle gösterilen ikinci kümedeki varyansın az olduğu hem grafik, hem de dendogramdan saptanılmıştır. Kümeler arasındaki örtüşmenin fazla olduğu gözlemlenmiştir.

Average Linkage Method

Aşamalı Kümelemeye Wards linkage yöntemi ile başlanılacaktır. Hem euclidean, hem de manhattan uzaklık metriğine göre aşamalı kümeleme uygulanacak ve dendogramlar görselleştirilecektir. Ardından kümelemelerin kojenetik uzaklıkları ölçülecektir. Orijinal uzaklık ile kojenetik uzaklık arasındaki korelasyon incelenip hangi uzaklık metriği ile ilerlenileceğine karar verilecektir.

Euclidean Uzaklık Metriği ile

Manhattan Uzaklık Metriği ile

İki dendogram incelendiğinde çok büyük bir farklılık görülmemektedir. Ancak yükseklik değerleri incelendiğinde Euclidean uzaklık metriği ile yapılan aşamalı kümelemenin daha düşük yükseklik değerleri ile ayrıldığını fark etmek mümkündür. Daha sağlıklı yorumlama yapabilmek amacıyla kojenetik distance değerlerini bulmak mantıklı olacaktır.

## [1] 0.8013459

Euclidean uzaklık metriği ile yapılan aşamalı kümelemenin orijinal uzaklık ile kojenetik uzaklık arasındaki korelasyon değeri 0.80 çıkmıştır. 0.75 ve üzeri korelasyon değerlerinin daha geçerli bir kümeleme olduğu sonucuna varıldığı düşünüldüğünde, bu değerin iyi olduğu sonucuna varılabilir. Ancak daha iyi bir yorum yapmak için Manhattan uzaklık ölçütü ile yapılan aşamalı kümelemenin de kojenetik uzaklık değerine ulaşmak gerekmektedir.

## [1] 0.7550863

Manhattan uzaklık metriği ile yapılan aşamalı kümelemenin orijinal uzaklık ile kojenetik uzaklık arasındaki korelasyon değeri 0.75 çıkmıştır. 0.75 ve üzeri korelasyon değerlerinin daha geçerli bir kümeleme olduğu sonucuna varıldığı düşünüldüğünde, bu değerin iyi olduğu sonucuna varılabilir. Euclidean distance ile yapılan kojenetik uzaklık korelasyonunun daha iyi çıkması sebebiyle, aşamalı kümeleme yönteminin Average linkage ile yapılan kümelemesinde Euclidean Distance metriği ile ilerlenme kararı verilmiştir.

Optimal Küme Sayısının Belirlenmesi

## Among all indices: 
## ===================
## * 2 proposed  0 as the best number of clusters
## * 6 proposed  2 as the best number of clusters
## * 3 proposed  3 as the best number of clusters
## * 1 proposed  4 as the best number of clusters
## * 7 proposed  5 as the best number of clusters
## * 1 proposed  6 as the best number of clusters
## * 4 proposed  7 as the best number of clusters
## * 1 proposed  8 as the best number of clusters
## * 1 proposed  9 as the best number of clusters
## 
## Conclusion
## =========================
## * According to the majority rule, the best number of clusters is  5 .

NbClust paketinden yararlanılarak çizdirilen grafikte en çok önerilen küme sayısı beş olarak saptanmıştır. Dendogramlar incelendiğinde benzer bir çıkarımda bulunmak mümkündür. 2,5 ve 7 küme için aşamalı kümeleme yapılmış; ancak rapora yalnızca 2 ve 5 kümelemenin sonucu eklenmiştir.

7 küme sayısı ile yapılan kümelemede küme eleman sayıları arasındaki fark çok fazla çıkmıştır. Bazı küme sayı elemanları oldukça az(3) çıkmasına rağmen, bazı kümelerin eleman sayıları oldukça fazla (305) çıkmıştır. Küme içi varyansların ise dengesiz olduğu saptanmıştır. Ortalama Silhouette değeri (0.41) ve diğer ölçütler düşünüldüğünde rapora eklenmeme kararı alınmıştır.

2 Küme için Average

## grupav2
##   1   2 
##  23 546

Kümeleme sonucunda ilk kümenin 23, ikinci kümenin ise 546 elemanı olduğu sonucuna varılmıştır.

Küme grafiği incelendiğinde ayrışmanın yalnızca PC1 boyutunda gerçekleştiği gözlemlenmiştir. Mavi renkle gösterilen ikinci kümede hem eleman sayısı, hem de varyans kırmızı renkle gösterilen birinci kümeye kıyasla daha fazladır. Bu ayrıma hem dendogramdan, hem de küme grafiğinden ulaşılabilir. Çakışmanın da az da olsa var olduğu belirtilmelidir.

5 Küme için Average

## grupav5
##   1   2   3   4   5 
##  16 105   5 436   7

Kümeleme sonucunda 1, 2, 3, 4 ve 5 kümelerin eleman sayıları sırasıyla 16, 105, 5, 436, 7 şeklinde olduğu sonucuna varılmıştır.

Küme grafiği incelendiğinde ayrışmanın hem PC1, hem de PC2 boyutunda gerçekleştiği gözlemlenmiştir. Yeşil renk ile gösterilen 3. küme ile mor renkle gösterilen 5. kümede varyansın oldukça az olduğu saptanmıştır. Varyansın azlığının bir sebebi de küme eleman sayılarının oldukça az olmasıdır. Aksine, mavi renkle gösterilen 4. kümede eleman sayısı ve varyans diğer kümelere kıyasla daha fazla olarak gözlemlenmiştir.

Model Temelli Kümeleme

Model temelli kümeleme EM ile tahmin yaparak kümeleme işlemini gerçekleştirir. Her k, ortalamaya yakın noktalar için artan yoğunlukla ortalamada merkezlenir. Fonksiyon içinde yer alan G argümanı, k sayısını belirlemek için değişiklik yapılmasına olanak sağlar. 1 ile 9 arasında değerler alır. Her bir değer denenmiş; ancak en iyi sonucu veren G değerinin iki olduğu sonucuna ulaşılmıştır.

G’nin üç değeri için yapılan analizlerde ilk iki küme eleman sayısının birbirine yakın (235-212) olmasına rağmen, üçüncü eleman sayısının daha az (122) olduğu sonucuna ulaşılmıştır. En iyi model hacmi değişik, şekli ve yönelimi benzer anlamına gelen VII modeli çıkmıştır. Çizdirilen uncertainty grafiğinde, kararsız gözlemlerin sayısının çok olması ve Ortalama Silhouette değerinin daha düşük (0.27) olması sebebiyle bu yöntem rapora eklenmemiştir.

G’nin dört değeri için yapılan analizlerde küme sayıları sırasıyla 52, 158, 213, 146 olarak saptanılmıştır. En iyi model hacmi değişik, şekli ve yönelimi benzer anlamına gelen VII modeli çıkmıştır. Çizdirilen uncertainty grafiğinde, kararsız gözlemlerin sayısının çok olması ve Ortalama Silhouette değerinin daha düşük (0.33) olması sebebiyle bu yöntem rapora eklenmemiştir.

G’nin beş değeri için yapılan analizlerde küme sayıları sırasıyla 29, 112, 187, 114, 127 olarak saptanılmıştır. En iyi model hacmi değişik, şekli ve yönelimi benzer anlamına gelen VII modeli çıkmıştır. Çizdirilen uncertainty grafiğinde, kararsız gözlemlerin sayısının çok olması ve Ortalama Silhouette değerinin daha düşük (0.32) olması sebebiyle bu yöntem rapora eklenmemiştir.

mc <- Mclust(pcadata)
summary(mc)
## ---------------------------------------------------- 
## Gaussian finite mixture model fitted by EM algorithm 
## ---------------------------------------------------- 
## 
## Mclust VVI (diagonal, varying volume and shape) model with 2 components: 
## 
##  log-likelihood   n df       BIC       ICL
##       -2226.677 569  9 -4510.449 -4654.213
## 
## Clustering table:
##   1   2 
## 253 316

Model temelli kümeleme sonucunda veri seti iki kümeye ayrılmıştır. 1 ve 2 küme için küme eleman sayıları şu şekildedir: 253, 316.

En iyi model olarak VVI parametresi çıkmaktadır. VVV; hacmi ve şekli değişik, yönelimi benzer anlamına gelmektedir.

fviz_mclust(mc, "uncertainty", palette = "jco",pos = FALSE)

Belirsizlik grafiğinde daha büyük noktalarla ifade edilen gözlemlerin kümeleme sonuçlarının daha belirsiz olduğu ifade edilir. İki küme arasında belirsizliğin arttığı gözlemlenebilir. İlginç bir şekilde en sağda bulunan ve birinci kümeye ait olan bir gözlem belirsiz olarak görünmektedir.

Yoğunluk Bazlı Kümeleme

Yoğunluk bazlı kümelemede küme sayısının önceden belirlenmesi gerekmemektedir; ancak MinPts ve eps değerlerinin önceden belirlenmesi gerekmektedir. eps parametresi, x noktasının çevresindeki komşuların yarıçapını tanımlar. Buna x’in epsilon komşuluğu denir. MinPts parametresi, “eps” yarıçapı içindeki minimum komşu sayısıdır. Bu değerlere karar vermek için KNN distplot kullanılabilir.

kNN Distplot

k, MinPts’i ifade etmektedir. Yapılan çeşitli denemeler sonrasında 10’a karar verilmiştir. kNNdisplot incelenirken, tıpkı Dirsek Yöntemi gibi, çizginin “dirsek” yaptığı nokta saptanılmalıdır. Bu nokta eps değeri olarak seçilmelidir. Çeşitli denemeler sonucunda en uygun değerin 1 olduğuna karar verilmiştir. Fakat uygulanan kümeleme sonuçları beğenilmediği için en iyi sonuç veren eps değeri olarak 0.6 seçilmiştir.

MinPts 10, eps 1 ile yapılan analizlerde küme sayısı bir olarak çıkmıştır. Bir küme, hiç küme anlamına geldiği için rapora eklenilmeme kararı alınmıştır.

MinPts 10, eps 0.8 ile yapılan analizlerde de eps 1 ile yapılan analiz ile aynı sonuç vermesi sebebiyle rapora eklenmeme karar alınımştır.

MinPts 5, eps 0.6 ile yapılan analizlerde küme sayısı iki olarak çıkmıştır. Birinci kümede 513 eleman varken ikinci küme eleman sayısının 7 çıkması ve bu dengesizliğin getirmiş olduğu varyans farkları şüpheye sebebiyet vermiştir. Bu sebeple rapora koyulmamıştır.

## dbscan Pts=569 MinPts=10 eps=0.6
##         0   1   2
## border 96  58  27
## seed    0  49 339
## total  96 107 366

Yoğunluk bazlı kümeleme veri setini iki kümeye ayırmıştır. Çıktı incelendiğinde toplam 96 gürültü değer görülmemektedir. Birinci kümede 58, ikinci kümede 27 sınır noktası bulunmaktadır. Birinci kümede 49, ikinci kümede 339 çekirdek nokta bulunmaktadır.

Grafik incelendiğinde kümeler arasındaki eleman farkının az olduğu görülmektedir. Gürültü değerlerin fazlalığı da dikkat çekmektedir.

Küme Geçerliliği

Kümeleme sonrası yapılan geçerlilik ölçümleri paylaşılmadan önce clValid paketinde yer alan clValid fonksiyonundan yararlanılmak istenilmiştir. Bu fonksiyon verilen kümeleme yöntemleri ile kümeleme gerçekleştirerek en uygun kümeleme algoritması ve küme sayısının önerisini yapmaktadır. Üç geçerlilik ölçütü için bu fonksiyondan yararlanılacaktır. Bu ölçütler dahili (internal) ve harici(external) küme geçerliliği ile kümeleme kararlılığı(stability) olacaktır.

clValid

## 
## Clustering Methods:
##  kmeans pam hierarchical model 
## 
## Cluster sizes:
##  2 3 4 5 6 
## 
## Validation Measures:
##                                   2        3        4        5        6
##                                                                        
## kmeans       Connectivity   47.9456  60.6964  78.5956  94.8873  91.6552
##              Dunn            0.0058   0.0074   0.0136   0.0128   0.0125
##              Silhouette      0.4923   0.4417   0.4194   0.3631   0.3566
## pam          Connectivity   33.4456  73.8468  88.6940 103.3563 117.7881
##              Dunn            0.0133   0.0046   0.0072   0.0067   0.0112
##              Silhouette      0.4804   0.3627   0.3369   0.3341   0.2982
## hierarchical Connectivity   10.0647  17.1679  20.6960  38.8679  43.0341
##              Dunn            0.0637   0.0719   0.0719   0.0294   0.0294
##              Silhouette      0.5363   0.4703   0.4538   0.4200   0.4149
## model        Connectivity   60.9706  67.5242  96.2040 105.0313 112.6198
##              Dunn            0.0023   0.0055   0.0057   0.0066   0.0041
##              Silhouette      0.4125   0.2706   0.3351   0.3264   0.2854
## 
## Optimal Scores:
## 
##              Score   Method       Clusters
## Connectivity 10.0647 hierarchical 2       
## Dunn          0.0719 hierarchical 3       
## Silhouette    0.5363 hierarchical 2

Dahili kümeleme geçerliliği ölçütleri Connectivity, Dunn ve Silhouette ölçütlerini içermektedir. Bu ölçütlere her kümeleme sonrasında zaten bakılmıştı. clValid fonksiyonu bu ölçütler çerçevesinde en uygun algoritma olarak hiyerarşik kümelemeyi, optimal küme sayısı olarak ise 2 kümeyi işaret etmektedir.

Tüm Ölçütler

kumegecerliligi <- data.frame( "Kümeleme Algoritması" <- c("K - Ortalamalar 2", "K - Ortalamalar 3", "K - Medoids 2", "K - Medoids 3", " Aşamalı - Ward.D2 2", "Aşamalı - Ward.D2 3", "Aşamalı - Average 5", "Aşamalı - Average 2", "Model Temelli", "Yoğunluk Temelli"),
                               "Küme Sayısı" <- c(2,3,2,3,2,3,5,2,2,2),
                               "Örtüşme" <- c("Az", "Çok", "Az", "Çok", "Az", "Çok", "Çok", "Az", "Yok", NA),
                               "Negatif Silhouette Değeri" <- c(10,9,26,47,24,30,52,29, NA, NA),
                               "Ortalama Silhouette Değeri" <- c(0.49, 0.44, 0.48, 0.36,0.48,0.48,0.42,0.54, 0.41,0.39),
                               "Dunn Değeri" <- c(0.005,0.011, 0.013, 0.004, 0.02, 0.035, 0.029, 0.063, 0.002, 0.005),
                               "Connectivity Değeri" <- c(64.96, 87.85, 50.08, 109.02, 40.70, 60.24, 68.88, 20.61, 83.61, 160.89),
                               "Rand Değeri" <- c(0.64, 0.49, 0.72, 0.39, 0.56, 0.51, 0.44, 0.60, 0.53, 0.48),
                               "VI Değeri" <- c(0.56, 0.93, 0.49, NA, 0.70, 0.86, 0.80, 0.74, 0.75, 0.96),
                               "Label" <- c(55,146,42,194,70,127,189,111,77,142) 
)
colnaames <- c("Kümeleme Algoritması", "Küme Sayısı", "Örtüşme", "Negatif Silhouette Değeri", "Ortalama Silhouette Değeri", "Dunn Değeri", "Connectivity Değeri", "Rand Değeri", "VI Değeri", "Label")
names(kumegecerliligi) <- colnaames
kumegecerliligi
##    Kümeleme Algoritması Küme Sayısı Örtüşme Negatif Silhouette Değeri
## 1     K - Ortalamalar 2           2      Az                        10
## 2     K - Ortalamalar 3           3     Çok                         9
## 3         K - Medoids 2           2      Az                        26
## 4         K - Medoids 3           3     Çok                        47
## 5   Aşamalı - Ward.D2 2           2      Az                        24
## 6   Aşamalı - Ward.D2 3           3     Çok                        30
## 7   Aşamalı - Average 5           5     Çok                        52
## 8   Aşamalı - Average 2           2      Az                        29
## 9         Model Temelli           2     Yok                        NA
## 10     Yoğunluk Temelli           2    <NA>                        NA
##    Ortalama Silhouette Değeri Dunn Değeri Connectivity Değeri Rand Değeri
## 1                        0.49       0.005               64.96        0.64
## 2                        0.44       0.011               87.85        0.49
## 3                        0.48       0.013               50.08        0.72
## 4                        0.36       0.004              109.02        0.39
## 5                        0.48       0.020               40.70        0.56
## 6                        0.48       0.035               60.24        0.51
## 7                        0.42       0.029               68.88        0.44
## 8                        0.54       0.063               20.61        0.60
## 9                        0.41       0.002               83.61        0.53
## 10                       0.39       0.005              160.89        0.48
##    VI Değeri Label
## 1       0.56    55
## 2       0.93   146
## 3       0.49    42
## 4         NA   194
## 5       0.70    70
## 6       0.86   127
## 7       0.80   189
## 8       0.74   111
## 9       0.75    77
## 10      0.96   142

En İyi Algoritma ve Optimal Küme Sayısının Seçilmesi

Silhouette

Silhouette -1 ile 1 arasında değerler alır. Bir kümelemenin iyi sonuç verdiği çıkarımında bulunabilmek için, kümeleme sonrası ulaşılan Ortalama Silhouette Değerinin 1’e mümkün olduğunca yakın olması gerekmektedir. Silhouette değerinin en çok çıktığı kümeleme Aşamalı Kümelemedeki Average linkage methodu çıkmıştır. Küme sayısı ise ikidir.

Dunn

Dunn endeksi sıfırdan maksimuma kadar uzanan değerler alır. En iyi Dunn değeri maksimum değerdir. Dunn değerinin en çok çıktığı kümeleme Aşamalı Kümelemedeki Average linkage methodu çıkmıştır. Küme sayısı ise ikidir.

Connectivity

Connectivity değeri 0’dan sonsuza kadar giden değerler alır. Mümkün olduğunca küçük olmalıdır. Connectiviy değerinin en çok çıktığı kümeleme Aşamalı Kümelemedeki Average linkage methodu çıkmıştır. Küme sayısı ise ikidir.

Rand

Rand endeksi -1 (uyum yok) ile 1 (mükemmel uyum) arasında değer alır. 1’e en yakın olan değer, en iyi değerdir. Denenen tüm yöntemler için Rand değerleri incelendiğinde bire en yakın değerin K- Medoids algortiması çıkmıştır. Küme sayısı ise 2 olarak görünmüştür.

VI Index

VI endeksi -1 (uyum yok) ile 1 (mükemmel uyum) arasında değer alır. 1’e en yakın olan değer en iyi değerdir. Bütün Melia değişim değerleri incelendiğinde en iyi algoritma olarak Yoğunluk Temelli kümeleme algoritması çıkmıştır.

Label Karşılaştırması

ggplot(kumegecerliligi, aes(x = Label, y = `Kümeleme Algoritması` )) +
  geom_point() +
  theme_minimal()+
  labs(title =  "Label Değerleri ile Kümeleme Sonuçları Arasındaki Frekans Farkı")

Yukarıdaki grafik label frekansı ile kümeleme frekansları arasındaki farkı göstermektedir. Bu farkın en az olduğu kümeleme algoritması, label’a en yakın sonuçla kümeleme yapan algoritmayı göstermektedir. Bu sebeple K - Medoids en uygun algoritma olarak görülmektedir. Küme sayısı ise 2 olarak görülmektedir.

Sonuç

Clvalid ve diğer tüm ölçütlerin önerilerine göre:

  • 3 ölçek 2 kümeli, average linkage ile yapılmış aşamalı kümelemeyi,
  • 2 ölçek 2 kümeli K - Medoids,
  • 1 ölçek ise Yoğunluk Temelli Kümeleme algoritmasını önermiştir.

Normal şartlar altında en uygun kümeleme yöntemi Aşamalı, optimal küme sayısı ise 2 seçilmeliydi. Ancak bu veri seti ve bu analiz özelinde, küme elemanları farklılıkları, küme içi varyansların aşırı farklı olması ve labelların bilindiği düşünüldüğünde; label ile arasındaki frekans farkının en az olduğu algoritmanın seçilmesinin daha uygun olduğu düşünülmüştür. Bir başka deyişle, en uygun kümeleme algoritması olarak K - Medoids , optimal küme sayısı olarak ise 2 seçilmiştir. K - Medoids 569 gözlem içerisinde yalnızca 42 adet yanlış kümeleme yapmıştır. %7’lik bir hata oranıyla çalıştığı düşünüldüğünde oldukça başarılı bir kümeleme olduğu söylenebilir.

Kümeleme Sonuçları

Her değişkenin ortalamaları, küme ortalamaları ile karşılaştırılmak istenilmiştir. Aşağıdaki tablo bu karşılaştırmayı göstermek için çizdirilmiştir.

Kümeleme Sonuçları
Değişkenler Birinci Küme İkinci Küme
Radius Yüksek Ortalama
Texture Yüksek Ortalama
Perimeter Yüksek Az
Area Yüksek Az
Smoothness Yüksek Az
Compactness Yüksek Az
Concavity Yüksek Az
Concave Points Yüksek Ortalama
Symmetry Yüksek Ortalama
Fractal Dimension Ortalama Ortalama

Label ile Karşılaştırma

## 
##  Descriptive statistics by group 
## Diagnosis: B
##                vars   n   mean     sd median trimmed    mad    min    max
## radius            1 357  12.15   1.78  12.20   12.17   1.69   6.98  17.85
## texture           2 357  17.91   4.00  17.39   17.52   3.47   9.71  33.81
## perimeter         3 357  78.08  11.81  78.18   78.16  11.13  43.79 114.60
## area              4 357 462.79 134.29 458.40  459.40 127.06 143.50 992.10
## smoothness        5 357   0.09   0.01   0.09    0.09   0.01   0.05   0.16
## compactness       6 357   0.08   0.03   0.08    0.08   0.03   0.02   0.22
## concavity         7 357   0.05   0.04   0.04    0.04   0.03   0.00   0.41
## concave.points    8 357   0.03   0.02   0.02    0.02   0.01   0.00   0.09
##                 range  skew kurtosis   se
## radius          10.87 -0.08    -0.05 0.09
## texture         24.10  0.97     1.16 0.21
## perimeter       70.81 -0.06    -0.05 0.62
## area           848.60  0.34     0.27 7.11
## smoothness       0.11  0.66     1.79 0.00
## compactness      0.20  1.20     2.21 0.00
## concavity        0.41  3.44    20.40 0.00
## concave.points   0.09  0.92     0.98 0.00
## ------------------------------------------------------------ 
## Diagnosis: M
##                vars   n   mean     sd median trimmed    mad    min     max
## radius            1 212  17.46   3.20  17.33   17.32   3.36  10.95   28.11
## texture           2 212  21.60   3.78  21.46   21.43   3.25  10.38   39.28
## perimeter         3 212 115.37  21.85 114.20  114.19  23.17  71.90  188.50
## area              4 212 978.38 367.94 932.00  945.98 366.57 361.60 2501.00
## smoothness        5 212   0.10   0.01   0.10    0.10   0.01   0.07    0.14
## compactness       6 212   0.15   0.05   0.13    0.14   0.04   0.05    0.35
## concavity         7 212   0.16   0.08   0.15    0.15   0.07   0.02    0.43
## concave.points    8 212   0.09   0.03   0.09    0.09   0.03   0.02    0.20
##                  range skew kurtosis    se
## radius           17.16 0.49     0.31  0.22
## texture          28.90 0.69     2.25  0.26
## perimeter       116.60 0.60     0.52  1.50
## area           2139.40 1.10     2.17 25.27
## smoothness        0.07 0.47     0.36  0.00
## compactness       0.30 0.82     0.77  0.00
## concavity         0.40 0.89     1.06  0.01
## concave.points    0.18 0.73     0.65  0.00

M (kötü huylu tümör) ve B (iyi huylu tümör) labellarına göre çıkartılan tanımlayıcı istatistik değerleri incelendiğinde M labelındaki gözlemlerin değişkenlerdeki ortalamalarının ortalamanın üzerinde seyrettiği fark edilmiştir. Kümeleme sonuçlarında değişkenlerin ortalamanın üzerinde seyrettiği kümenin birinci küme olduğu düşünüldüğünde; birinci kümenin kötü huylu tümörü ifade ettiği, ikinci kümenin iyi huylu tümörü ifade ettiği söylenebilir.

Sonuçların Görselleştirilmesi

Raporu daha fazla uzatmamak düşüncesiyle PC1 ve PC2’nin temsil ettiği ikişer değişken seçilerek her bir küme için bu değişkenlerin birbiri ile olan ilişkisinin incelendiği iki adet grafik çizdirilmiştir. Grafik çizdirilirken 1 ve 2 olan küme isimleri label karşılaştırılmasında çıkartılan sonuçlara göre M(Kötü Huylu Tümör) ve B (İyi Huylu Tümör) olarak değiştirilmiştir.

son_data <- mutate(son_data, cluster = ifelse(cluster == 1,"M - Kötü Huylu Tümör", "B - İyi Huylu Tümör"))

M(Kötü Huylu Tümör) için çıkartılan grafikte Radius 8, Area 250 bandından başlayıp her iki değerin maksimum değerlerine ulaşan pozitif bir ilişki gözlemlenmiştir. B(İyi Huylu Tümör) için her iki değişkende de 0’dan başlayıp Area için 1000’de, Radius için 17’de biten pozitif bir ilişki gözlemlenmiştir. Bu grafikten kötü huylu tümörlerin çekirdeklerinin alanları daha geniş aralıkta seyrederken; iyi huylu tümörlerin alanlarının çok fazla büyümediği çıkarımında bulunulabilir. İyi huylu tümörlerin ise yarıçapının 17’den fazlaya çıkmadığı gözlemlenmiştir.

B(İyi Huylu Tümör) kümesi için hem Fractal dimension değişkeninde, hem de Smoothness değişkeninde geniş bir aralıkta yayılım gözlemlenmektedir. M(Kötü Huylu Tümör) kümesi için de hem Fractal dimension değişkeninde, hem de Smoothness geniş bir aralıkta yayılım gözlemlenmektedir. Bunun sebebinin ayrışmanın yalnızca PC1 değişkeninde gerçekleşmiş olması olabilir. Buradan da İyi veya Kötü Huylu Tümör ayrımını yapmak için yapılacak olan analizlerde PC2’de yer alan değişkenlere (Fractal Dimension, Smoothness, Compactness, Symmetry) göre yorum yapmanın yanıltıcı olabileceği çıkarımında bulunulabilir.